查看原文
其他

5000字带你了解转录组一些生信基础概念 | 转录调控

运营部-LH 联川生物 2024-03-27



转录组测序中衍生了一些专业术语,了解这些术语的概念有助于我们理解转录组测序以及相关生信分析结果。下面介绍一些常见的二代测序(NGS)相关术语。这篇文章无论是即将从事数据分析的生信人员,还是对于想要借助二代测序进行科学研究的老师都很有帮助,可以缕清很多基础性的概念术语。


基础概念

l   基因:产生一条多肽链或功能RNA所需的全部核苷酸序列;包含编码蛋白质肽链或RNA的核酸序列,转录所必须的调控元件,编码区上游的非编码序列,内含子,编码区下游的非编码序列。广义基因的概念包含蛋白编码基因(protein coding),RNA基因(miRNA,lncRNA,snoRNA,snRNA等),假基因(pseudogene)等,狭义的基因通常指蛋白编码基因。不同物种中由于基因组注释完善程度不同,包含的基因类型是有差异的。


l   转录本:是由一个基因通过转录形成的一种或多种成熟RNA。蛋白编码基因可以转录出多条mRNA,lncRNA基因可以转录出多条lncRNA,部分蛋白编码基因座除了转录出mRNA(信使RNA),也可以转录出lncRNA(长链非编码RNA)。


l   hosting gene:亲本基因或来源基因,比如lncRNA/circRNA亲本基因表示lncRNA/circRNA的来源基因座,亲本基因经过转录、剪切或反向剪切形成lncRNA和circRNA(环状RNA)。


文库结构相关概念

l   Reads:测序得到的每一条序列称为一个Read。R1和R2


l   Raw Data / Raw Reads:测序下机得到的原始图像数据经过base calling转化而来的原始数据。


l  Clean Data / Clean Reads:去除接头和低质量Reads后的数据,后续分析均基于Clean Data。


l   Reads count:对于单端测序中,比对到基因组的一个read计为1个count,对于双端测序,一个Fragments计为1个count,是基因的原始定量结果。Reads count大小与基因的表达丰度、基因长度(理论上RNA越长,打断产生的Fragments越多,测序产生的Reads就越多,count即越大)和测序深度(简单理解为测序数据量)相关。无法直接通过基因的Reads count比较基因表达量高低,需要去除测序深度和或基因长度的影响,正因为如此,衍生了不同的基因表达量表示方法。


l   Fragments:Fragments指每一段用于测序的核酸片段,在SE(单端测序)中,一个Fragments只测一条reads,所以,reads数与Fragments数目相等;在PE(双端测序)中,一个Fragments测两端,会得到2条reads,但由于后期质量或比对的过滤,有可能一个Fragments的2条reads最后只有一条进入最后的表达量分析。总之,如果一对paired-reads都比对上了,那么这一对pair-reads称为一个fragment;如果一个比对上了,另一个没比对上,那么这个比对上的reads就称为一个fragment。所以,Fragments的最终数目是reads的1到2倍之间。


l  Adapter:接头是测序时在序列两端分别加上的一段人工序列,接头上含有与测序引物互补结合的序列,通过和测序引物结合来对目的片段进行测序。当加上接头后的序列片段比实际测序读长短时,3’端会测到接头序列,接头序列在分析之前需要去除掉。



关于基因定量

l   RPKM:Reads Per Kilobase of exon modelper Million mapped reads (每千个碱基的转录每百万映射读取的reads),表达量表示方法,主要用来对单端测序(single-end RNA-seq)进行定量的方法。


l  FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments),表达量表示方法,主要是针对pair-end测序表达量进行计算(公式算法基本与上述RPKM一致。FPKM是先对测序深度标准化,再对基因长度标准化。


l  TPM:Transcripts Per Million,表达量表示方法,其是先对基因长度标准化,再对测序深度标准化,与FPKM正好相反。


l   SRPBM:Spliced Reads Per Billion Mapping,SRPBM = number of circular reads / (number of mapped reads (units in billion) * read length),表达量表示方法,用于表示circRNA的表达量。


l  PE150 / SE50:PE(Pair end)为双端测序的意思,测序文库中的一条序列从两端开始读取,得到read 1与read 2,即通常所说的R1与R2。SE(Single end)为单端测序的意思,即一条序列从一端读取。这里的PE150为150bp的意思,即读取150bp长度的测序模式从从两侧R1和R2一起读取。而SE50则是50bp长度只从R1端读取。


l  Contig:拼接软件基于Reads之间的重叠(overlap)区拼接获得的序列称为Contig(重叠群),即由Reads通过对overlap区域拼接组装成的没有gap的序列段。


l  Contig N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3......Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。


l   测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。也可以理解为被测基因组上单个碱基被测序的平均次数。


l   Q20(Q30):二代测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。Q20与Q30则表示质量值≧20或≧30的碱基所占百分比。例如,一共测了1G的数据量,其中有0.9G的碱基质量值大于或等于20,那么Q20则为90%。Q20值是指测序过程的碱基识别(Base Calling)过程中,对所识别的碱基给出的错误概率。质量值是Q20,则错误识别的概率是1%,即错误率1%,或者正确率是99%;质量值是Q30,则错误识别的概率是0.1%,即错误率0.1%,或者正确率是99.9%;质量值是Q40,则错误识别的概率是0.01%,即错误率0.01%,或者正确率是99.99%。如果测序错误率用E表示,Illumina的碱基质量值用Q表示,则有下列关系:Q=-10log10E。


l  测序数据量 = 基因组大小(所测范围大小)× 测序深度或者测序reads数 × reads长度(读长)。


l  G / M:测序中通常提到的G和M是数量单位,代表碱基或reads的数目,1G = 1000M = 106K = 109个,与表述文件体积大小的G(比如硬盘空间是512G)和M是有区别的。



常用文件格式

l   fastq

fastq是一种文本格式,也叫fq格式。这种格式用于储存生物学序列及其相应质量值(通常是核酸序列的)。为了方便储存及可读这些信息,这些序列以及质量信息使用ASCII字符标示。该格式最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。通常fastq文件中每一个序列含有4行信息,第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;第二行:表示序列信息,制表符或者空格不允许出现。一般是明确的DNA或者RNA字符,由A,C,G,T和N这五种字母构成,N代表的是测序时那些无法被识别出来的碱基;第三行:用于将测序序列和质量值内容分离开来。以‘+’开头,后面是描述信息等,或者什么也不加。在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);第四行:测序read的质量值,每个字符与第二行的碱基一一对应,按照一定规则转换为碱基质量得分,进而反映该碱基的错误率,因此字符数必须和第二行保持一致,它描述的是每个测序碱基的可靠程度,用ASCII码表示。第四行中每个字符对应的ASCII值减去64,即为对应第二行碱基的测序质量值。如果测序错误率用E表示,Illumina的碱基质量值用Qphred表示,则有下列关系:Qphred=-10log10E。


为了节省空间,原始数据fastq一般以压缩形式fastq.gz(或fq.gz)储存、分发和上传公共数据库,如无必要,无需解压。



l  fasta格式

fasta是一种文本格式,也叫fa格式,以单字符(single-letter codes)贮存核酸或者蛋白序列信息,允许在序列前加注释信息。以NCBI RefSeq数据库中下载序列为例:

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds

CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCG

第一部分:以>号开始,紧接着序列的标识符 ,注意区分大小写,且不能出现空格,空格表示序列标识符结束;随后是序列的描述信息。

第二部分:以序列本身信息,使用既定的核苷酸或氨基酸编码符号,大小写都可以。直到遇到下一个>结束。所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号由数字组成,具有唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。gi号后面是序列的标识符,标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。

fasta格式在拓展的文件命名中,一般会约定俗成,具体见下表格:


格式

含义

备注

fasta

通用的fasta

其他拓展为fas, fa, seq, fsa

fna

核酸序列fasta

一般用于指定核酸序列

faa

氨基酸序列fasta

含有氨基酸,多蛋白质fasta文件可以具有更具体的扩展名mpfa


转录组分析结果中的转录本(mRNA、lncRNA、circRNA)序列是以fasta(fa)格式存储的。



l   GFF格式

GFF是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版(gff3)。GFF允许使用#作为注释符号,例如很多GFF文件都会使用如下的两行来表明其版本其创建日期:

GFF文件除GFF1以外均由9列数据组成,前8列在GFF的3个版本中信息都是相同的,只是名称不同,每一列所代表的含义如下说明。GFF的第9列,从第二版开始(GFF2),所有的属性都以 标签=值 的方式呈现,各个属性之间以 ; 作为分隔符,有一些是已经预先定义的属性特征,并且这些特征往往有特殊的含义:ID这个标签各行都要有;另外有一个Parent的属性,它表明了当前的特征是Parent特征的子集。


GFF文件每列含义说明如下:

1.      seqid :参考序列的id。

2.      source:注释的来源。如果未知,则用点(.)代替。一般指明产生此gff3文件的软件或方法。

3.      type:类型,此处的名词是相对自由的,建议使用符合SO惯例的名称(sequenceontology),如gene,repeat_region,exon,CDS等。

4.      start:开始位点,从1开始计数(区别于bed文件从0开始计数)。

5.      end:结束位点。

6.      score:得分,对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。

7.      strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。

8.      phase :步进。对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过的碱基个数。

9.      attributes:属性。一个包含众多属性的列表,格式为标签=值(tag=value),不同属性之间以以 ; 作为分隔符相隔。



l   GTF格式

当前所广泛使用的GTF格式为第二版(GTF2)。GTF同GFF3很相似,也是9列内容,其内容如下:

1.        seqname: 序列的名字。通常格式染色体ID或是contig ID。

2.        source:注释的来源。通常是预测软件名或是公共数据库。

3.        start:开始位点,从1开始计数。

4.        end:结束位点。

5.        feature :基因结构。CDS,start_codon,stop_codon是一定要含有的类型。

6.        score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。

7.        strand:链的正向与负向,分别用加号+和减号-表示。

8.        frame:密码子偏移,可以是0、1或2。

9.        attributes:属性。必须要有以下两个值:1)gene_id value:表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。2)transcript_id value:预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。


需要再次强调的是GTF格式有两个硬性标准:

1)根据所使用的软件的不同,feature types是必须注明的。

2)第9列必须以gene_id以及transcript_id开头,标签与值之间以空格分开,且每个特征之后都要有分号( ; ),包括最后一个特征。


GFF和GTF的区别:

-

GTF

GFF

Feature type

必须注明

可以是任意名称

attributes

key和value以空格分割

key和value以“=”隔开


Tips:

通常进行有参转录组分析时需要对应物种有参考基因组,有参考基因组的标准之一是有基因组DNA序列信息和基因组特征注释文件(GFF或GTF文件)。通过查询研究物种是否具有DNA序列和基因组特征注释文件,可以初步(基因组是否可用)判断是否可以开展有参转录组分析。



l   BED文件

BED文件每行至少包括chrom,chromStart,chromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的。

BED文件必须的3列:

1.        chrom:染色体号; 例如,chr1,chrX。

2.        chromStart:feature在染色体上起始位置. 从0开始算,染色体上第一个碱基位置标记为0。

3.        chromEnd:feature在染色体上终止位置。染色体上前100个碱基片段的位置位置标记为:chromStart=0, chromEnd=100,实际上,第100个碱基不属于当前片段中,当前片段的碱基应该是0-99,所以在BED文件中,起始位置从0开始,终止位置从1开始。


BED文件可选9列如下:

4.        name:BED行名,在基因组浏览器左边显示。

5.        score:在基因组浏览器中显示的灰度设定,值介于0-1000。

6.        strand:正负链标记。"." 或者 "+" 或者 "-"。

7.        thickStart:feature起始位置(for example, the start codon in gene displays)。When there is no thick part, thickStart and thickEnd are usually set to the chromStart position。

8.        thickEnd:feature编码终止位置 (for example the stop codon in gene displays)。

9.        itemRgb:R,G,B (e.g. 255,0,0) 值,当itemRgb 设置为 "On",BED的行会显示颜色。

10.     blockCount:blocks (exons)数目。

11.     blockSizes:blocks (exons)大小列表,逗号分隔,对应于blockCount。

12.     blockStarts:blocks (exons)起始位置列表,逗号分隔,对应于blockCount;这个起始位置是与chromStart的一个相对位置。


genomic features通常使用BED或者GFF文件表示,用UCSC Genome Browser进行可视化比较。BED文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1;GFF中起始坐标是1而结束坐标至少是1。



l   SAM文件

SAM(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储测序序列mapping(比对)到基因组上的结果。SAM格式为纯文本格式,字里行间压缩了极大的信息。

SAM分为两部分,注释信息(header section)和比对结果(alignment section):

1.        注释信息(header section):标记了该SAM文件的一些基本信息,比如版本、按照什么方式排序的、Reference信息等等;标头都是以@开头,用不同的tag表示不同的信息。

2.        比对结果(alignment section): 每一行表示一个片段(segment)的比对信息,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tab分割。



l   Bam文件

Bam是Sam的二进制格式,因此两者格式相同,只是Bam文件没有header section,但alignment section 部分是一样的,Bam文件占用储存空间更小,运算更快。Bam格式见下图:

由于flag几个标签值都是2的n次方,这样的数列有一个特点,就是随机挑选其中的几个,它们的和是唯一的,比如,65 只能是1 和 64 组成,代表这个序列是双端测序,而且是Read1,所以在Bam文件中的第二列,即flag列(位标识,模板mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和)的值代表这条序列符合上述所有条件的值的和,所以根据这个flag我们可以确定这条序列究竟是Read1还是Read2。

Bam文件可以导入IGV(https://software.broadinstitute.org/software/igv/)进行可视化。

 通常bam格式还有一些可转换的变种格式,使用samtools、bedtools等工具可转换成其他变种格式,例如bw(也叫bigwig)和tdf格式。这些文件通常也可以使用IGV软件打开。














相关阅读
















收藏再看!120分钟视频+上万字问题解答=circRNA大佬!(内含整理一年资料合集免费领取)

你可能做了假转录组!揭秘yyds“真”转录组秘密——链特异性文库

知道这些数据库,轻松玩转microRNA靶基因预测

研究lncRNA的常见技术及原理



点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由







继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存